1. variable central

Column

La práctica de lectura a nivel nacional

Column

Tabla descriptiva de la varible tasa de lectura

[1] "Descriptivo de la variable tasa de lectura"
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  0.000   1.216   1.697   1.561   1.930   3.000 

Introducción

La lectura es esencial para el desarrollo integral del ser humano, teniendo un impacto significativo en su desarrollo intelectual, social, espiritual y moral (Domínguez et al., 2015, p. 5-6). La enseñanza de la lectura y la literatura se considera un objetivo primordial en la educación. En este contexto, es fundamental analizar los determinantes socioeconómicos e infraestructurales que afectan la práctica lectora de niños y adolescentes, para comprender las variables significativas involucradas en esta área.

En este trabajo se examina la práctica de la lectura en niños y adolescentes de 6 a 17 años de edad, con el hábito de lectura como nuestra variable central (dependiente). Para el análisis, se utilizó datos recopilados de la Encuesta Nacional de Lectura - ENL (2022) del INEI y de la Encuesta Nacional de Hogares (ENAHO) del mismo año (2022).

La variable central representa la proporción de niños que tienen el hábito de lectura, definido como aquellos que leen al menos una vez a la semana. Esta medida se expresa en una escala de tasa, donde un valor mínimo de 1 indica que todos los niños en la muestra leen con regularidad, mientras que un valor máximo de 3 sugiere que, en promedio, cada niño lee tres veces más que la frecuencia base o media observada.

2. Variables

Column {data-width=400}

Tasa de niños y adolescentes con acceso a Internet

Tasa de niños y adolescentes con acceso a Internet desde un celular móvil

Tasa de niños y adolescentes cuentan con electricidad en su vivienda

Tasa de niños y adolescentes cuentan con agua en su vivienda

Column {data-width=300}

CEDU

¿Qué son las CEDUS?

CEDU es la abreviatura de Calidad EDUcativa, estas fueron recolectadas de la Encuesta Nacional de Hogares del año 2022.

CEDU INFRA → Percepción de la calidad de infraestructura en los centros educativos (techo, paredes, etc)

CEDU EQUIPO → Percepción de la calidad del equipamiento en los centros educativos (carpetas, pizarras, sillas, etc)

CEDU ENSEÑANZA → Percepción de la calidad de los maestros en los centros educativos

CEDU PARTICIPACIÓN PADRES→ Percepción de la calidad de los mecanismos para la participación de los padres de familia en las instituciones educativas

CEDU MATERIAL → Percepción de la calidad del material educativo de las instituciones educativas (libros, planes lectores, etc)

3. Análisis Factorial

Column {data-width=200}

Correlación entre variables para posible índice:

Column {data-width=200}

Índices KMO y Overall MSA:

Kaiser-Meyer-Olkin factor adequacy
Call: psych::KMO(r = corMatrix)
Overall MSA =  0.69
MSA for each item = 
     cedu_infra     cedu_equipo  cedu_ensenanza   cedu_material cedu_partpadres 
           0.63            0.65            0.72            0.81            0.71 

Resultados Pruebas

¿Es matriz de identidad?
[1] FALSE
¿Es una matriz singular?
[1] FALSE

Resultado del Análisis Factorial

Análisis

  • Previo al análisis de nuestras variables independientes, se llevó a cabo un Análisis Factorial Exploratorio basado en las variables CEDU. Los resultados mostraron correlaciones positivas moderadamente adecuadas, con un coeficiente KMO de 0.67. Además, las pruebas para determinar si la matriz era una identidad o singular resultaron negativas, lo que permitió continuar con el análisis factorial.

  • La función fa.parallel sugirió la existencia de 2 variables latentes. En el gráfico de “Resultado de EFA” se observan claramente dos factores: MR1 y MR2.

  • El MR1 incluye “cedu_infra” (calidad educativa de la infraestructura) y “cedu_equipo” (calidad educativa de los equipos en las instituciones educativas), ambos relacionados con los recursos físicos educativos. Estos formarán el “índice_1_cedu”.

  • Por otro lado, el MR2 engloba “cedu_partpadres” (participación de los padres), “cedu_enseñanza” (calidad de la enseñanza) y “cedu_material” (materiales educativos), factores que tienen un enfoque más individualizado al entorno personal del estudiante. Estos constituirán el “índice_2_cedu”.

4. Correlaciones con la variable central

Column {data-width=300}

Correlación con vivienda con acceso a internet

Correlación con vivienda con acceso internet desde un celular

Correlación con vivienda con acceso a electricidad

Correlación con vivienda con acceso a agua

Correlación con el índice 1

Correlación con el Índice 2

Column {data-width=200}

Análisis

Las correlaciones bivariadas entre la “tasa de la práctica de lectura en los niños y adolescentes (de 6 a 17 años)” y las variables independientes se midieron utilizando la prueba de Pearson en todos los casos.

  • Tasa de Internet: Esta variable representa la tasa de viviendas con acceso a Internet. Tiene una relación positiva y débil con la práctica de lectura, con un coeficiente de Pearson de 0.140.

  • Tasa de Internet móvil: Esta variable indica la tasa de viviendas con acceso a Internet desde un teléfono móvil. Posee una relación positiva y débil, con un coeficiente de Pearson de 0.108.

  • Tasa de electricidad: Esta variable muestra la tasa de viviendas con acceso a electricidad. Tiene una relación positiva, aunque débil, con un coeficiente de Pearson de 0.151. A pesar de ser baja, se incluirá en el análisis.

  • Tasa de agua: Esta variable se refiere a la tasa de viviendas con acceso a agua potable desde una red pública. La relación es positiva pero muy débil, con un coeficiente de Pearson de 0.037, por lo que no se utilizará en los análisis posteriores.

  • Índice 2 CEDU: La relación entre esta variable y la práctica de lectura es positiva pero débil, con un coeficiente de Pearson de 0.099.

  • Índice 1 CEDU: Se observa una relación positiva entre esta variable y la práctica de lectura, con un coeficiente de Pearson de 0.123. Aunque la relación es débil, es más fuerte que la del Índice 2, por lo que se utilizará en el análisis.

De todas las variables, nos quedaremos con las más significativas para realizar los modelos de regresión, que son: “tasa de Internet”, “tasa de Internet móvil”, “tasa de electricidad” e “Índice 1 CEDU”.

5. Regresiones

Column {data-width=300}

MODELO 1

Regresion: modelo 1
 Apropiacion (I)
(Intercept) -7.856***
(0.372)
indice_1_cedu 0.259**
(0.100)
tasa_internet 1.395***
(0.149)
Num.Obs. 175
AIC 560.4
BIC 569.9
Log.Lik. -277.206
F 46.251
RMSE 1.23
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

MODELO 2

Regresion: modelo 2
 Apropiacion (II)
(Intercept) -7.918***
(0.370)
indice_1_cedu 0.232*
(0.100)
tasa_internet 1.278***
(0.186)
tasa_celinter 0.304+
(0.158)
tasa_elec -0.763
(0.517)
Num.Obs. 175
AIC 558.8
BIC 574.7
Log.Lik. -274.419
F 25.811
RMSE 1.15
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

MODELO 3

Regresion: modelo 3
 Apropiacion (III)
(Intercept) -7.897***
(0.375)
tasa_internet 1.261***
(0.187)
tasa_celinter 0.328*
(0.159)
tasa_elec -0.874+
(0.497)
Num.Obs. 175
AIC 562.5
BIC 575.2
Log.Lik. -277.254
F 31.657
RMSE 1.13
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Comparación

EXP() del Modelo 1, Modelo 2 y Modelo2
Modelo 1  Modelo 2  Modelo 3
(Intercept) 0.0003873*** 0.000364*** 0.0003719***
[0.0001816, 0.0007811] [0.0001711, 0.0007326] [0.0001732, 0.0007541]
indice_1_cedu 1.2961031** 1.260862*
[1.0702025, 1.5808362] [1.0410659, 1.5384410]
tasa_internet 4.0368975*** 3.588419*** 3.5280582***
[3.0340460, 5.4541474] [2.5044963, 5.1926033] [2.4560634, 5.1212567]
tasa_celinter 1.354742+ 1.3885882*
[0.9954312, 1.8529251] [1.0186992, 1.9013669]
tasa_elec 0.466450 0.4172200+
[0.1562849, 1.1844012] [0.1446525, 1.0117521]
Num.Obs. 175 175 175
AIC 560.4 558.8 562.5
BIC 569.9 574.7 575.2
Log.Lik. -277.206 -274.419 -277.254
F 46.251 25.811 31.657
RMSE 1.23 1.15 1.13
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Column

Tabla Chi- Cuadrado

Tabla ANOVA para comparar modelos
Resid. Df Resid. Dev Df Deviance Pr(>Chi)
172 245.7972 NA NA NA
170 240.2232 2 5.574031 0.0616048
171 245.8949 -1 -5.671668 0.0172411

Análisis

  • Modelo 1: Primera hipótesis: la práctica lectora en niños y adolescentes es causada por el acceso a Internet y por el acceso a recursos físicos educativos de calidad.

  • Modelo 2: Segunda hipótesis: la práctica lectora en niños y adolescentes es causada por el acceso a Internet, por el acceso a recursos físicos educativos de calidad, el acceso a Internet desde un celular móvil y que la vivienda cuente con electricidad.

  • Modelo 3: Tercera hipótesis: la práctica lectora en niños y adolescentes es causada por el acceso a Internet, el acceso a Internet desde un celular móvil y que la vivienda cuente con electricidad.

Conclusión: La regresión elegida es la de Poisson, ya que nuestras variables están medidas en tasas, lo que la convierte en la opción indicada. Se inició con el MODELO 1, utilizando las variables “índice_1_cedu” y “tasa_internet”. En este modelo, se identificó la significancia de ambas variables. Por lo tanto, se procedió a agregar las variables restantes: “tasa_internet_celular” y “tasa_electricidad”. Sin embargo, “índice_1_cedu” perdió significancia, mientras que las variables agregadas no resultaron significativas. Se decidió quitar la variable “índice_1_cedu” para el tercer modelo, y este mejoró.

Al comparar los modelos con la prueba de chi-cuadrado, tal como se visualiza en la tabla ANOVA, se demostró que el tercer modelo resultó ser el mejor, ya que la comparación es significativa. Con un AIC de 562.5, este es el menor. Asimismo, todas las variables del modelo 3 son significativas, siendo la más significativa, al nivel de 0.001, la “tasa_internet”.

6. Conglomerados

Column {data-width=300}

Dendograma en base a estragia de partición (AGNES)

Column

Silhouette

Análisis

  • Al realizar el proceso de clusterización y análisis por conglomerados, se observó que el mejor modelo resultó ser AGNES, con un Silhouette de 0.24. Aunque este valor es bajo, es el mejor y nos muestra una clara agrupación. El eje ‘Height’ nos muestra que el “costo” de conglomerar fue de 2.0. Además, el cuarto grupo es el mejor agrupado. Por último, estas son las provincias mal clusterizadas: AREQUIPA, CANDARAVE, CARABAYA, CHUPACA, FERREÑAFE, HUARAZ, HUAYLAS, JULCAN, LAMBAYEQUE, LUCANAS, MARISCAL NIETO, OXAPAMPA, PICOTA, SAN MIGUEL, SAN ROMAN, TARATA, VICTOR FAJARDO, VILCAS HUAMAN y VIRU.

7. Conclusiones

Column

Gráfico regresional

Column

Bibliografía

Domínguez, I. D., Delgado, L. R., Ávila, Y. T., & Ávila, M. M. R. (2015). Importancia de la lectura y la formación del hábito de leer en la formación inicial. Estudios del desarrollo social: Cuba y América Latina, 3(1), 94-102.

Encuesta Nacional de Lectura - ENL (2022). Características de la vivienda y del hogar, actividades de fomento de la lectura en el hogar y TIC. Recuperado de la base de datos del Instituto Nacional de Estadística e Informática.

Encuesta Nacional de Lectura - ENL (2022). Prácticas lectoras de los residentes habituales de 0 a 17 años de edad. Recuperado de la base de datos del Instituto Nacional de Estadística e Informática.

Conclusiones Finales

  • ACAAA TEXTOOOOO

---
title: "Causas de la práctica de lectura en niños y adolescentes del Perú 2022"

output: 
  flexdashboard::flex_dashboard:
    theme: sandstone
    social: menu
    source_code: embed
    orientation: columns
    vertical_layout: fill
---
```{r setup, include=FALSE}
library(flexdashboard)
library(rio)
library(ggplot2)
library(stringr)
library(dplyr)
library(tidyverse)
library(modelsummary)
library(kableExtra)
library(cluster)
library(sf)
data = import ("provtasa_total.csv")
dataDep = import("depatasa_total.csv")
```

```{r stup, include=FALSE}
data <- data[complete.cases(data), ]
```


1. variable central {data-icon="fa-signal"}
===================================== 
Column {data-width=300}
-------------------------------------------------------------------------------------------------------
```{r, include=FALSE}
library(sf) 
mapDEP=sf::read_sf("DEPARTAMENTO.shp")
head(mapDEP) #Veamos la geometría:
```

```{r, include=FALSE}
mapDEP2 <- merge(mapDEP, dataDep, by.x = 'DEPARTAMEN', by.y = 'NOMBDEP', all.x = TRUE)
```

### La práctica de lectura a nivel nacional
```{r}
# Crear el mapa con tonos verdes oscuros y azules
mapa_lectura <- ggplot(mapDEP2) +
  geom_sf(aes(fill = tasa_leer), color = "gray") +  # Mapea la variable tasa_leer al relleno del mapa
  scale_fill_gradient(low = "#edf8fb", high = "#08306b", na.value = "gray", 
                      breaks = seq(0, 100, by = 10)) +  # Escala de colores y valores para la tasa de lectura
  labs(
    fill = "Tasa de Lectura",
    title = "Práctica de lectura a nivel nacional",
    subtitle = "Según el censo de lectura realizado por el INEI",
    caption = "Fuente: INEI \nElaborado por: Yhara y Romina"
  ) +
  theme_minimal() +  # Tema minimalista
  theme(
    plot.title = element_text(color = "black", size = 20, face = "bold", hjust = 0.5),
    plot.subtitle = element_text(color = "black", size = 14, hjust = 0.5),
    plot.caption = element_text(color = "black", size = 12),
    legend.position = "bottom",  # Coloca la leyenda en la parte inferior
    legend.title = element_text(size = 14, face = "bold"),  # Título de la leyenda
    legend.text = element_text(size = 12)  # Tamaño del texto de la leyenda
  )

# Mostrar el mapa
print(mapa_lectura)
```


Column {data-width=300}
-----------------------------------------------------------------------

### Tabla descriptiva de la varible tasa de lectura

```{r}
print("Descriptivo de la variable tasa de lectura")
print(summary(data$tasa_leer))
```

### Introducción 

La lectura es esencial para el desarrollo integral del ser humano, teniendo un impacto significativo en su desarrollo intelectual, social, espiritual y moral (Domínguez et al., 2015, p. 5-6). La enseñanza de la lectura y la literatura se considera un objetivo primordial en la educación. En este contexto, es fundamental analizar los determinantes socioeconómicos e infraestructurales que afectan la práctica lectora de niños y adolescentes, para comprender las variables significativas involucradas en esta área.

En este trabajo se examina la práctica de la lectura en niños y adolescentes de 6 a 17 años de edad, con el hábito de lectura como nuestra variable central (dependiente). Para el análisis, se utilizó datos recopilados de la Encuesta Nacional de Lectura - ENL (2022) del INEI y de la Encuesta Nacional de Hogares (ENAHO) del mismo año (2022).

La variable central representa la proporción de niños que tienen el hábito de lectura, definido como aquellos que leen al menos una vez a la semana. Esta medida se expresa en una escala de tasa, donde un valor mínimo de 1 indica que todos los niños en la muestra leen con regularidad, mientras que un valor máximo de 3 sugiere que, en promedio, cada niño lee tres veces más que la frecuencia base o media observada.

2. Variables {data-icon="fa-signal"}
=====================================   

Column {data-width=400}{.tabset}
-----------------------------------------------------------------------

### Tasa de niños y adolescentes con acceso a Internet

```{r}
library(plotly)
# Crear el gráfico de densidad con ggplot2
p <- ggplot(data, aes(x = tasa_internet)) +
  geom_density(fill = "darkblue", alpha = 0.5) +
  labs(title = "Densidad de la Tasa de acceso a Internet",
       x = "Tasa de Internet")

# Hacer el gráfico interactivo con plotly
interactive_plot <- ggplotly(p)

# Mostrar el gráfico interactivo
interactive_plot
```

### Tasa de niños y adolescentes con acceso a Internet desde un celular móvil

```{r}
# Crear el gráfico de densidad con ggplot2
p <- ggplot(data, aes(x = tasa_celinter)) +
  geom_density(fill = "darkgreen", alpha = 0.4) +
  labs(title = "Densidad de la Tasa de acceso\na internet desde un celular",
       x = "Tasa de Internet desde un celular")

# Hacer el gráfico interactivo con plotly
interactive_plot <- ggplotly(p)

# Mostrar el gráfico interactivo
interactive_plot
```

### Tasa de niños y adolescentes cuentan con electricidad en su vivienda

```{r}
# Crear el gráfico de densidad con ggplot2
p <- ggplot(data, aes(x = tasa_elec)) +
  geom_density(fill = "orange", alpha = 0.4) +
  labs(title = "Densidad de la Tasa de viviendas\na que cuentan con electricidad",
       x = "Tasa de electricidad")

# Hacer el gráfico interactivo con plotly
interactive_plot <- ggplotly(p)

# Mostrar el gráfico interactivo
interactive_plot
```

### Tasa de niños y adolescentes cuentan con agua en su vivienda

```{r}
# Crear el gráfico de densidad con ggplot2
p <- ggplot(data, aes(x = tasa_agua)) +
  geom_density(fill = "skyblue", alpha = 0.4) +
  labs(title = "Densidad de la Tasa de viviendas\na que cuentan con agua",
       x = "Tasa de agua")

# Hacer el gráfico interactivo con plotly
interactive_plot <- ggplotly(p)

# Mostrar el gráfico interactivo
interactive_plot
```

Column {data-width=300} {.tabset}
-----------------------------------------------------------------------

### CEDU

```{r}
# Crear el gráfico boxplot con ggplot2
p <- ggplot(data, aes(x = factor(1), y = cedu_infra)) +
  geom_boxplot(fill = "lightblue", color = "darkblue") +
  geom_boxplot(aes(x = factor(2), y = cedu_equipo), fill = "lightgreen", color = "darkgreen") +
  geom_boxplot(aes(x = factor(3), y = cedu_ensenanza), fill = "lightyellow", color = "orange") +
  geom_boxplot(aes(x = factor(4), y = cedu_material), fill = "lightpink", color = "red") +
  geom_boxplot(aes(x = factor(5), y = cedu_partpadres), fill = "lightcyan", color = "darkblue") +
  labs(title = "Todas las CEDU",
       x = "Variables",
       y = "Valores") +
  scale_x_discrete(labels = c("Cedu Infra", "Cedu Equipo", "Cedu Enseñanza", "Cedu Material", "Cedu Parte Padres"))

# Mostrar el gráfico
print(p)
```

### ¿Qué son las CEDUS?

CEDU es la abreviatura de Calidad EDUcativa, estas fueron recolectadas de la Encuesta Nacional de Hogares del año 2022. 

CEDU INFRA → Percepción de la calidad de infraestructura en los centros educativos (techo, paredes, etc)

CEDU EQUIPO → Percepción de la calidad del equipamiento en los centros educativos (carpetas, pizarras, sillas, etc)

CEDU ENSEÑANZA → Percepción de la calidad de los maestros en los centros educativos

CEDU PARTICIPACIÓN PADRES→ Percepción de la calidad de los mecanismos para la participación de los padres de familia en las instituciones 
educativas

CEDU  MATERIAL → Percepción de la calidad del material educativo de las instituciones educativas (libros, planes lectores, etc)


3. Análisis Factorial {data-icon="fa-signal"}
=====================================  

Column {data-width=200} {.tabset}
-----------------------------------------------------------------------

### Correlación entre variables para posible índice:

``````{r}
# Buscar columnas que contienen la palabra "cedu"
cedu_index = grep('cedu', names(data))

# Seleccionar las columnas que contienen la palabra "cedu"
cedu_data = data[, cedu_index]
```

```{r, include=FALSE}
# usaremos:
library(magrittr)
head(cedu_data,10)%>%
    rmarkdown::paged_table()
```

```{r, include=FALSE}
library(magrittr)
library(polycor)
corMatrix=polycor::hetcor(cedu_data)$correlations
round(corMatrix,2)
```

```{r}
library(ggcorrplot)
ggcorrplot(corMatrix)
```

Column {data-width=200} {.tabset}
-----------------------------------------------------------------------

### Índices KMO y Overall MSA:

```{r}
library(psych)
psych::KMO(corMatrix)
```

### Resultados Pruebas

¿Es matriz de identidad?
```{r}
cortest.bartlett(corMatrix,n=nrow(cedu_data))$p.value>0.05
```

¿Es una matriz singular?
```{r}
library(matrixcalc)
is.singular.matrix(corMatrix)
```

### Resultado del Análisis Factorial 

```{r, include=FALSE}
fa.parallel(cedu_data, fa = 'fa',correct = T,plot = F)
```

```{r, include=FALSE}
#Colocamos el NUMERO que nos dio el codigo anterior
library(GPArotation)
resfa <- fa(cedu_data,
            nfactors = 2,
            cor = 'mixed',
            rotate = "oblimin", 
            fm="minres")
print(resfa$loadings)
```


```{r}
fa.diagram(resfa,main = "Resultados del EFA")
```

```{r, include=FALSE}
as.data.frame(resfa$scores)%>%head()
```

```{r}
data$indice_1_cedu=resfa$scores[,1]
data$indice_2_cedu=resfa$scores[,2]
```

### Análisis

- Previo al análisis de nuestras variables independientes, se llevó a cabo un Análisis Factorial Exploratorio basado en las variables CEDU. Los resultados mostraron correlaciones positivas moderadamente adecuadas, con un coeficiente KMO de 0.67. Además, las pruebas para determinar si la matriz era una identidad o singular resultaron negativas, lo que permitió continuar con el análisis factorial.

- La función fa.parallel sugirió la existencia de 2 variables latentes. En el gráfico de "Resultado de EFA" se observan claramente dos factores: MR1 y MR2.

- El MR1 incluye "cedu_infra" (calidad educativa de la infraestructura) y "cedu_equipo" (calidad educativa de los equipos en las instituciones educativas), ambos relacionados con los recursos físicos educativos. Estos formarán el "índice_1_cedu".

- Por otro lado, el MR2 engloba "cedu_partpadres" (participación de los padres), "cedu_enseñanza" (calidad de la enseñanza) y "cedu_material" (materiales educativos), factores que tienen un enfoque más individualizado al entorno personal del estudiante. Estos constituirán el "índice_2_cedu".


4. Correlaciones con la variable central {data-icon="fa-signal"}
=====================================   

Column {data-width=300} {.tabset}
-----------------------------------------------------------------------

```{r, include=FALSE}
data$tasa_internet_SI <- (data$internet_si / data$internet_total) * 3
```

### Correlación con vivienda con acceso a internet

```{r}
ggplot(data, aes(x=tasa_leer, y=tasa_internet_SI)) +
  geom_point(colour="darkblue") +  xlab("tasa de lectura a nivel provincial") +  ylab("tasa internet si") +
  ggtitle("Relación entre la tasa de lectura y tasa internet") +
  theme_light()+ geom_smooth(method=lm,se=F)
```

### Correlación con vivienda con acceso internet desde un celular

```{r, include=FALSE}
data$tasa_celinter_SI <- (data$celinter_si / data$celinter_total) * 3
```

```{r}
ggplot(data, aes(x=tasa_leer, y=tasa_celinter_SI)) +
  geom_point(colour="darkgreen") +  xlab("tasa de lectura a nivel provincial") +  ylab("tasa internet celular") +
  ggtitle("Relación entre la tasa de lectura y la tasa internet celular") +
  theme_light()+ geom_smooth(method=lm,se=F)
```

### Correlación con vivienda con acceso a electricidad 

```{r, include=FALSE}
data$tasa_elec_SI <- (data$elec_si / data$elec_total) * 10
```

```{r}
ggplot(data, aes(x=tasa_leer, y=tasa_elec_SI)) +
  geom_point(colour="orange") +  xlab("tasa de lectura a nivel provincial") +  ylab("tasa electricidad") +
  ggtitle("Relación entre la tasa de lectura y tasa electricidad") +
  theme_light()+ geom_smooth(method=lm,se=F)
```

### Correlación con vivienda con acceso a agua

```{r, include=FALSE}
data$tasa_agua_SI <- (data$agua_si / data$agua_total) * 10
```

```{r}
ggplot(data, aes(x=tasa_leer, y=tasa_agua_SI)) +
  geom_point(colour="skyblue") +  xlab("tasa de lectura a nivel provincial") +  ylab("tasa agua") +
  ggtitle("Relación entre la tasa de lectura y tasa agua") +
  theme_light()+ geom_smooth(method=lm,se=F)
```

### Correlación con el índice 1

```{r}
ggplot(data, aes(x=tasa_leer, y=indice_1_cedu)) +
  geom_point(colour="darkgray") +  xlab("tasa de lectura a nivel provincial") +  ylab("Índice 1 - Cedu") +
  ggtitle("Relación entre la tasa de lectura e Índice 1 Cedu") +
  theme_light()+ geom_smooth(method=lm,se=F)
```

### Correlación con el Índice 2

```{r}
ggplot(data, aes(x=tasa_leer, y=indice_2_cedu)) +
  geom_point(colour="purple") +  xlab("tasa de lectura a nivel provincial") +  ylab("Índice 2 - Cedu") +
  ggtitle("Relación entre la tasa de lectura e Índice 2 Cedu") +
  theme_light()+ geom_smooth(method=lm,se=F)
```


Column {data-width=200} {.tabset}
-----------------------------------------------------------------------

### Análisis 
Las correlaciones bivariadas entre la "tasa de la práctica de lectura en los niños y adolescentes (de 6 a 17 años)" y las variables independientes se midieron utilizando la prueba de Pearson en todos los casos.

- Tasa de Internet: Esta variable representa la tasa de viviendas con acceso a Internet. Tiene una relación positiva y débil con la práctica de lectura, con un coeficiente de Pearson de 0.140.

- Tasa de Internet móvil: Esta variable indica la tasa de viviendas con acceso a Internet desde un teléfono móvil. Posee una relación positiva y débil, con un coeficiente de Pearson de 0.108.

- Tasa de electricidad: Esta variable muestra la tasa de viviendas con acceso a electricidad. Tiene una relación positiva, aunque débil, con un coeficiente de Pearson de 0.151. A pesar de ser baja, se incluirá en el análisis.

- Tasa de agua: Esta variable se refiere a la tasa de viviendas con acceso a agua potable desde una red pública. La relación es positiva pero muy débil, con un coeficiente de Pearson de 0.037, por lo que no se utilizará en los análisis posteriores.

- Índice 2 CEDU: La relación entre esta variable y la práctica de lectura es positiva pero débil, con un coeficiente de Pearson de 0.099.

- Índice 1 CEDU: Se observa una relación positiva entre esta variable y la práctica de lectura, con un coeficiente de Pearson de 0.123. Aunque la relación es débil, es más fuerte que la del Índice 2, por lo que se utilizará en el análisis.

De todas las variables, nos quedaremos con las más significativas para realizar los modelos de regresión, que son: "tasa de Internet", "tasa de Internet móvil", "tasa de electricidad" e "Índice 1 CEDU".

5. Regresiones {data-icon="fa-signal"}
=====================================   
Column {data-width=300} {.tabset}
-----------------------------------------------------------------------
### MODELO 1
```{r}
data2 <- data
data2$tasa_leer <- as.integer(data2$tasa_leer)
```

```{r}
library(modelsummary)
h1 = formula(tasa_leer ~ indice_1_cedu + tasa_internet)

rp1 = glm(h1, data = data2, 
        offset = log(leen_total), #exposure 
        family = poisson(link = "log"))

h1=list('Apropiacion (I)'=rp1)
modelsummary(h1, title = "Regresion: modelo 1",
             stars = TRUE,
             output = "kableExtra")
```

### MODELO 2 

```{r}
library(modelsummary)
h4 = formula(tasa_leer ~ indice_1_cedu + tasa_internet + tasa_celinter + tasa_elec)

rp2 = glm(h4, data = data2, 
        offset = log(leen_total), #exposure 
        family = poisson(link = "log"))

h4=list('Apropiacion (II)'=rp2)
modelsummary(h4, title = "Regresion: modelo 2",
             stars = TRUE,
             output = "kableExtra")
```


### MODELO 3

```{r}
h3 = formula(tasa_leer ~tasa_internet + tasa_celinter + tasa_elec)

rp3 = glm(h3, data = data2, 
        offset = log(leen_total), #exposure 
        family = poisson(link = "log"))

h3=list('Apropiacion (III)'=rp3)
modelsummary(h3, title = "Regresion: modelo 3",
             stars = TRUE,
             output = "kableExtra")
```

### Comparación 

```{r}
formatoNum <- function(x) format(x, digits = 4, scientific = FALSE)
models_total=list('Modelo 1'=rp1,
                 'Modelo 2'=rp2,
                 'Modelo 3'=rp3)

modelsummary(models_total,fmt=formatoNum,
             exponentiate = T, 
             statistic = 'conf.int',
             title = "EXP() del Modelo 1, Modelo 2 y Modelo2",
             stars = TRUE,
             output = "kableExtra")

```


Column {data-width=300}
-----------------------------------------------------------------------
### Tabla Chi- Cuadrado

```{r}
anova(rp1,rp2, rp3, test = "Chisq") %>%
kable(caption = "Tabla ANOVA para comparar modelos")%>%kableExtra::kable_styling(full_width = FALSE)
```

### Análisis

- Modelo 1: Primera hipótesis: la práctica lectora en niños y adolescentes es causada por el acceso a Internet y por el acceso a recursos físicos educativos de calidad.

- Modelo 2: Segunda hipótesis: la práctica lectora en niños y adolescentes es causada por el acceso a Internet, por el acceso a recursos físicos educativos de calidad, el acceso a Internet desde un celular móvil y que la vivienda cuente con electricidad.

- Modelo 3: Tercera hipótesis: la práctica lectora en niños y adolescentes es causada por el acceso a Internet, el acceso a Internet desde un celular móvil y que la vivienda cuente con electricidad.

Conclusión:
La regresión elegida es la de Poisson, ya que nuestras variables están medidas en tasas, lo que la convierte en la opción indicada. Se inició con el MODELO 1, utilizando las variables "índice_1_cedu" y "tasa_internet". En este modelo, se identificó la significancia de ambas variables. Por lo tanto, se procedió a agregar las variables restantes: "tasa_internet_celular" y "tasa_electricidad". Sin embargo, "índice_1_cedu" perdió significancia, mientras que las variables agregadas no resultaron significativas. Se decidió quitar la variable "índice_1_cedu" para el tercer modelo, y este mejoró.

Al comparar los modelos con la prueba de chi-cuadrado, tal como se visualiza en la tabla ANOVA, se demostró que el tercer modelo resultó ser el mejor, ya que la comparación es significativa. Con un AIC de 562.5, este es el menor. Asimismo, todas las variables del modelo 3 son significativas, siendo la más significativa, al nivel de 0.001, la "tasa_internet".

6. Conglomerados {data-icon="fa-signal"}
=====================================   
Column {data-width=300} {.tabset}
-----------------------------------------------------------------------

### Dendograma en base a estragia de partición (AGNES)

```{r}
dataClus=data[,c("tasa_internet", "tasa_celinter", "tasa_elec", "tasa_leer")]
row.names(dataClus)=data$NOMBPROV
```

```{r}
library(cluster)
g.dist = daisy(dataClus, metric="gower")
```

```{r, include=FALSE}
library(factoextra)

## PARA JERARQUICO

fviz_nbclust(dataClus, hcut,diss=g.dist,method = "gap_stat",k.max = 10,verbose = F,hc_func = "agnes")
```

```{r, include=FALSE}
# en la K ponemos el numero que nos salio antes
set.seed(123)
library(factoextra)

res.agnes<- hcut(g.dist, k = 7,hc_func='agnes',hc_method = "ward.D")
dataClus$agnes=res.agnes$cluster

# ver

head(dataClus,15)%>%kbl()%>%kable_styling()
```

```{r}
# Visualize
fviz_dend(res.agnes, cex = 0.7, horiz = T,main = "")
```

Column {data-width=300}
-----------------------------------------------------------------------

### Silhouette 

```{r}
fviz_silhouette(res.agnes,print.summary = F)
```

### Análisis

- Al realizar el proceso de clusterización y análisis por conglomerados, se observó que el mejor modelo resultó ser AGNES, con un Silhouette de 0.24. Aunque este valor es bajo, es el mejor y nos muestra una clara agrupación. El eje ‘Height’ nos muestra que el “costo” de conglomerar fue de 2.0. Además, el cuarto grupo es el mejor agrupado. Por último, estas son las provincias mal clusterizadas: AREQUIPA, CANDARAVE, CARABAYA, CHUPACA, FERREÑAFE, HUARAZ, HUAYLAS, JULCAN, LAMBAYEQUE, LUCANAS, MARISCAL NIETO, OXAPAMPA, PICOTA, SAN MIGUEL, SAN ROMAN, TARATA, VICTOR FAJARDO, VILCAS HUAMAN y VIRU.

7. Conclusiones {data-icon="fa-signal"}
=====================================   
Column {data-width=300}
-----------------------------------------------------------------------
### Gráfico regresional

```{r}
dotwhisker::dwplot(list(Modelo1=rp1,Modelo2=rp2,Modelo3=rp3),exp=T) + scale_y_discrete(labels=c("Tasa Electricidad","Tasa internet celuar","Tasa Internet", "Índice 1 Cedu")) + scale_color_discrete(name="Modelos para:\nTasa de práctica de lectura") + geom_vline(
           xintercept = 1,
           colour = "grey60",
           linetype = 2
       )
```


Column {data-width=300}
-----------------------------------------------------------------------

### Bibliografía

Domínguez, I. D., Delgado, L. R., Ávila, Y. T., & Ávila, M. M. R. (2015). Importancia de la lectura y la formación del hábito de leer en la formación inicial. Estudios del desarrollo social: Cuba y América Latina, 3(1), 94-102.

Encuesta Nacional de Lectura - ENL (2022). Características de la vivienda y del hogar, actividades de fomento de la lectura en el hogar y TIC. Recuperado de la base de datos del Instituto Nacional de Estadística e Informática. 

Encuesta Nacional de Lectura - ENL (2022). Prácticas lectoras de los residentes habituales de 0 a 17 años de edad. Recuperado de la base de datos del Instituto Nacional de Estadística e Informática.

### Conclusiones Finales

- ACAAA TEXTOOOOO

-

-

-

-